Polarization Measurement of High Dimensional Social Media Messages With Support Vector Machine Algorithm Using Mapreduce

نویسنده

  • Ferhat Özgür Çatak
چکیده

Bu çalışmada önerilen yöntem kullanılarak, Eşle/İndirge (MapReduce) tekniği ile özellikle TFxIDF yöntemi gibi yüksek boyutlu veri setlerinin, veri madenciliğinde oldukça sık kullanılan makine öğrenme algoritmalarından olan Destek Vektör Makinesi (DVM) ile uygulanabilirliğini anlatılmaktadır. Literatürde, DVM sınıflandırma algoritması, makine öğrenmesi yöntemleri arasında genelleştirme özelliği en yüksek ve nitelikler arasında yer alan korelasyondan etkilenmeyen bir yöntem olduğunu gösteren birçok çalışma mevcuttur. Fakat DVM yöntemi eğitim aşamasında kuadratik optimizasyon yöntemleri kullanmasından dolayı zaman karmaşıklığı O(m) ve alan karmaşıklığı O(m) şeklindedir. Bu nedenle DVM, yüksek boyutlu veri setlerinin sınıflandırılmasında kullanılacak hipotezin çıkarımı esnasında uygulanabilir olmaktan çıkmaktadır. Bu soruna çözüm olarak geliştirilen yöntemde, dağıtık Eşle/İndirge yöntemiyle alt veri setlerinin oluşturulması, her bir alt veri seti kullanılarak ortaya çıkan sınıflandırma hipotezinin destek vektörlerinin birleşimi, yinelemeli olarak tekrar kullanımıyla eğitilmesi anlatılmaktadır. Çalışmanın uygulama kısmında, yüksek boyutlu sosyal medya mesaj veri setinin TFxIDF yöntemi ile gösterimi ve bu sayısal veri setinin duygu analizi (sentiment analysis) ile kutupsal değerinin ölçümü anlatılmaktadır. Sınıflandırma yöntemi olarak iki ve üç sınıflı modeller oluşturulmuştur. Her bir sınıflandırma modelinin karmaşıklık matrisi tablolar ile gösterilmiştir Sosyal medya mesaj derlemi Türkiye'de bulunan 108 devlet ve 66 adet vakıf üniversitesi mesajlardan oluşmaktadır. Derlem için kaynak olarak Twitter kullanılmıştır. Twitter kullanıcıların mesajları Twitter Streaming API ile elde edilmiştir. Sonuçlar grafik ve tablolar ile paylaşılmıştır. Anahtar Kelimeler: Büyük Veri, Destek Vektör Makinesi, Eşle/İndirge, Makine Öğrenmesi, Sosyal Medya

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Feature Selection and Classification of Microarray Gene Expression Data of Ovarian Carcinoma Patients using Weighted Voting Support Vector Machine

We can reach by DNA microarray gene expression to such wealth of information with thousands of variables (genes). Analysis of this information can show genetic reasons of disease and tumor differences. In this study we try to reduce high-dimensional data by statistical method to select valuable genes with high impact as biomarkers and then classify ovarian tumor based on gene expression data of...

متن کامل

Online Voltage Stability Monitoring and Prediction by Using Support Vector Machine Considering Overcurrent Protection for Transmission Lines

In this paper, a novel method is proposed to monitor the power system voltage stability using Support Vector Machine (SVM) by implementing real-time data received from the Wide Area Measurement System (WAMS). In this study, the effects of the protection schemes on the voltage magnitude of the buses are considered while they have not been investigated in previous researches. Considering overcurr...

متن کامل

Feature Selection Using Multi Objective Genetic Algorithm with Support Vector Machine

Different approaches have been proposed for feature selection to obtain suitable features subset among all features. These methods search feature space for feature subsets which satisfies some criteria or optimizes several objective functions. The objective functions are divided into two main groups: filter and wrapper methods.  In filter methods, features subsets are selected due to some measu...

متن کامل

AMRITA_CEN @ FIRE 2015: Extracting Entities for Social Media Texts in Indian Languages

This contemporary work is done as a slice of the shared task on Entity Extraction from Social Media Text Indian Languages in Forum for Information Retrieval and Evaluation (FIRE2015). Nowadays people are extensively using social media platforms like Face book, Twitter, etc, to exchange their thoughts. The twitter messages are growing rapidly and their style and short nature present a new challe...

متن کامل

Detection of some Tree Species from Terrestrial Laser Scanner Point Cloud Data Using Support-vector Machine and Nearest Neighborhood Algorithms

acquisition field reference data using conventional methods due to limited and time-consuming data from a single tree in recent years, to generate reference data for forest studies using terrestrial laser scanner data, aerial laser scanner data, radar and Optics has become commonplace, and complete, accurate 3D data from a single tree or reference trees can be recorded. The detection and identi...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • CoRR

دوره abs/1410.2686  شماره 

صفحات  -

تاریخ انتشار 2014